数据采集分析实战:厦门房地产市场初步分析
作者:书生婉悠
简书:http://www.jianshu.com/u/46175078f805
之前在做泉州租房和美食区域市场分析的时候,说过要尝试一下房地产的分析,当然房地产的分析是非常庞大的工程,涉及到政策、商圈、人口流动、地理区位、购买配套等等因素的影响,用到的模型也很多,例如PEST、波特五力等等,这里更多倾向于数据层面的分析,展示的是基本的分析逻辑。
因为最近也在开发和推广web scraper的课程,我也用过不少的采集方法,觉得在便利性上 web scraper具有一定的优势,非常适合没有代码基础的朋友学习,因此呢,我也就用这个工具做了数据爬取。
在爬取数据后,对数据的合理分析和可视化呈现还是非常重要的,有人说分析能力决定了数据分析的下限,对业务的理解,决定了分析的上限,这句话我还是非常认同的。因此我不是特别建议非专业的朋友话大量的时间专门去学习采集语言,更希望在选择合适的工具后,提高数据分析的能力,最重要的是,加深对分析行业和业务的理解。
1、爬取厦门房源数据
厦门房地产联合网(http://www.xmhouse.com/)相对于来房源信息比较全面和及时,为了充分研究厦门房地产的的价格和销售,就需要对数据做爬取,爬取的网址:
http://newhouse.xmhouse.com/newsearch.aspx?siteid=1&area=3502030000
需要爬取的数据有楼盘名字、销售状态、地理位置、开发商、价格等信息,为例提高效率,我们采用web scraper作为爬取的工具。
具体的采集方法在之前的文章和课程中有所非常详细的介绍,需要做的就是设置一个等待的时间,让我们可以选择采集指定区域范围的房源,例如采集的是海沧区还是集美区的房源;其次是要建立一个一级选择器来设定选择范围,建立一个二级选择器来选择需要的元素,具体的采集地图和采集结果如下图所示:
总共226条数据,并不包括漳州台商投资区、招商局漳州开发区、长泰县三个区域房源,在上图中需要指出的是价格为0的指的是待售房源,这类房源的价格还未公布。
2、采集房源的经纬度
为了更加直观地展示房源所处的地理位置,我们需要根据采集得到的区域信息和房源具体位置信息,解析得到每个房源的经纬度。
在解析经纬度这里我们需要用到的是XGeocoding工具,这个工具相对来说比较准确。要使用XGeocoding工具,需要在百度地图认证开发者身份后申请获得访问应用权限:
在获得访问应用AK之后,才能在XGeocoding中使用相应的地图信息。接下来就需要在XGeocoding中解析经纬度:
通过“新建”→“导入文件”→“txt/csv”将准备好的数据导入:
将字段0选为“同步ID”,字段1选为“市/县”,字段2为“商户名”,字段3为“地址”。坐标类型选择“百度”,当然你有其他地图的KEY,也可以用其他的地图源(XGeocoding提供了谷歌地图和高德地图的地图源):
下一步后,会让你选择“工作地图”和输出地图坐标,这里根据实际需求选择,工作地图需要配置过API KEY才可以调用(自行去他们的开发者门户上申请):
最终获得的结果如下图:
3、对数据做分析处理和可视化呈现
这部分制作简单的处理,并不是主要的内容,本文主要的内容是在于通过web scraper数据采集以及如何根据地理位置生成经纬度:
(1)区域分布图展示:
这里我用的是BI工具中自带的地图为背景,并没有引入百度地图、谷歌地图,我们可以非常直观看到厦门6个区中各个的房源分布相对来说比较均衡,这和市政府将人口引流岛外的政策是相通的。
(2)厦门在售和待售房源区域数量及其对应的平均价格分析
如下图可以看到房源最多的是翔安区,接下来是思明区、湖里区、同安区三者在售和待售房源一样多,价格最高的是思明区,其次是湖里区,最低的是翔安区。
(3)开发商在厦门在售和待售楼盘数量和均价情况
通过下图可以看出,厦门海投在厦门拥有8个在售或者待售多的项目,而其各个项目的均价也是最高的。
当然还可以做非常多的分析,例如每个开发商在厦门的楼盘分布和价格区间,例如区域和开发商对价格的影响情况等等,这里就不做展开分析了,有兴趣的朋友可以自行研究。
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
小编的Python入门视频课程!!!
崔老师爬虫实战案例免费学习视频。
丘老师数据科学入门指导免费学习视频。
陈老师数据分析报告制作免费学习视频。
玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
丘老师Python网络爬虫实战免费学习视频。